home *** CD-ROM | disk | FTP | other *** search
/ The Atari Compendium / The Atari Compendium (Toad Computers) (1994).iso / files / umich / apps / other / dotplot.lzh / document / manual_3.dtp (.txt) < prev    next >
Encoding:
Timeworks Publisher/Publish It!  |  1991-09-16  |  48.2 KB  |  154 lines

  1. :EDT.DOC
  2. As you can see it lists the complete set of values of the score table and this will fill almost half of your screen with, all but illegible lettering. You will also find an exit to return to your previous screen and an edit box. When you enter the second screen, the edit box reports on the Alanine-Alanine couple, and if you look at the table above you will see that the little box on the cross of the A-row and the A-column is indeed in reversed video. To change a value; just type in the new one and it will replace the old one. The corresponding box will switch to normal video and the next one will be activated. If you don't want to change all values but only some there are three ways to activate the box of your choice:
  3. Press <RETURN> and keep it pressed until you reach the right box.
  4. Use the arrows on your keyboard.
  5. Simply use the mouse to click in the desired box to activate it.
  6. when you are finished; click in ``Exit'' and then ``Quit''; all changes will be saved and DOTPLOT will be able to run with new sets of defaults and or a new table.
  7. As you might have noticed the table is a 26 by 26 matrix. This means that not only the standard amino acids are represented, but also B(Asx) and Z(Glx). There are four letters that do not stand for any amino acid (J,O,U,X), allthough the X is sometimes used for "any amino acid"; however, this allows you to use the extra letters for such excentrics as selene-coupled amino acids and their likes. It is advisory to give these extremely high auto-score values to highlight their rarety.
  8. TEM.DOC
  9. Devereux, J., P. Haeberli and O. Smithies.
  10.  1984. A comprehensive set of sequence analysis programs for the VAX. Nucl. Acids Res. 
  11.  387-395.
  12. Schwarz, R. M. and M. O. Dayhoff. 
  13. 1978. in Atlas of protein sequence and structure 
  14. 5 sup 3
  15.  (M.O.Dayhoff editor) , The national biochemical research foundation, Washington.
  16. Karreman, C. and A. de Waard
  17. . 1988. Cloning and complete nucleotide sequences of the type II restriction-modification genes of 
  18. Salmonella infantis
  19. . J. Bacteriol. 
  20. 2527-2532.
  21. Karreman, C. and A. de Waard.
  22.  1990. 
  23. Agmenellum quadruplicatum
  24. uI, a novel modification methylase. J. Bacteriol. 
  25. 266-272.
  26. DAYHOFF.PI3
  27. PPPPPPPPPPPP
  28. ?PPPPPPPP
  29.  PPPPP
  30. PPPPP
  31. PPPPIMAG
  32. JIMENEZ.PI3
  33. PPPPPPPPPPPP
  34. ?PPPPPPPP
  35.  PPPPP
  36. PPPPP
  37. PPPPIMAG
  38. FpLONG.PI3
  39. PPPPPPPPPPPP
  40. ?PPPPPPPP
  41.  PPPPP
  42. PPPPP
  43. PPPPIMAG
  44. F0NORMAL.PI3
  45. PPPPPPPPPPPP
  46. ?PPPPPPPP
  47.  PPPPP
  48. PPPPP
  49. PPPPIMAG
  50. SCRNDMP.PI3
  51. U>333330UU_
  52. 303308*
  53. U3303?0
  54. 30300
  55. U330300
  56. ?0??0?*
  57. 0>UU_
  58. >UUUW
  59. `UUUW
  60. <UUUW
  61. \DDD@
  62. DDDu_
  63. \DDDB
  64. DDDu_
  65. \DDDJ"DDDu_
  66. UUUUT
  67. UUUUW
  68. UUUUU
  69. UUUUW
  70. UUUUU
  71. UUUUW
  72. UUUUT
  73. UUUUW
  74. UUUUT9
  75. UUUUW
  76. \DDDDRDDDu_
  77. DDDMW
  78. \DDDABDDDu_
  79. DDDMW
  80. \DDD@
  81. DDDu_
  82. 3?>3?
  83. 3??3?
  84. UUUU33
  85. UUUUW
  86. UUUU33
  87. UUUUW
  88. UUUU??
  89. UUUUW
  90. UUUUW
  91. UUUUT
  92. UUUUW
  93. UUUUU
  94. aUUUUW
  95. UUUUU
  96. UUUUW
  97. UUUUU
  98. aUUUUW
  99. `DDDMW
  100. DDDMW
  101. \DDDDDA
  102. \EDDDDA
  103. `<<>><
  104. `>~~~|
  105. `>ffp`
  106. `~ff<`
  107. ~~f~~~
  108. ~>f>|>
  109. UUUUU@
  110. UUUUW
  111. UUUUUO
  112. UUUUW
  113. UUUUUL
  114. UUUUW
  115. UUUUUG
  116. UUUUW
  117. DDDMW
  118. f<><>
  119. f~~>~
  120. fff>p
  121. f~f~<
  122. |~>~~
  123. US330
  124. Principle of DOTPLOT.
  125. Like all Dotplot programs, this one works with two parameters called the Window (W) and the Score (S). A block of homology is defined as that part of the sequences, with length W, where at least S residues are the same. In case of the DNA comparison of DOTPLOT this means that only if at least 14 out of 21 bases are identical a line is drawn in the picture. For a complete picture 
  126. all possible
  127.  stretches, with length W, of one sequence have to be compared with 
  128. all possible
  129.  stretches, with length W, of the other sequence. For DNA this means that bases 1 to 21 of the horizontal sequence have to be compared with bases 1 to 21, 2 to 22, 3 to 23 etc. of the vertical sequence. After this first round bases 2 to 22 of the horizontal sequence will again be compared to the vertical sequence: 1 to 21, 2 to 22, 3 to 23 etc. This is the general principle, but DOTPLOT uses an algorithm that has to calculate a lot less than this description suggests at first glance. However, it does give you an idea about the number of calculations needed for a run. It also shows the quadratic nature of DOTPLOT: an increase in length by a factor two will increase the time necessary for a run with a factor of four.
  130. In the case of proteins the definition of the Score has to be revised. In this case it can be defined as the sum of the various, individual, scores. If you run without any score tables this boils down to the same as for DNA, but with other standard values for the Window and Score. With the use of score tables (see also page 6) the new definition comes in really handy; it will explain the Dayhoff defaults where Score is ten out of a Window of only 8. The very high values can be explained by the use of numbers larger than one for some combinations. If you have very good eyes, and can read the numbers in the last figure on page 10, you will see that in this table W(=Trp) scores 2.73 with itself. The table on page 10 is identical to the Dayhoff table and the number expresses the enormous importance of Trp at certain sites in a protein; the chance that an analogous protein will have kept it during evolution is very large indeed.
  131. The files on the disk.
  132. Under the DNA folder there are two files called MAQUI.DNA and MSINI.DNA respectively. Both these DNA's code for a procaryotic DNA-methyltransferase, genes homologous enough to show up on DOTPLOT pictures under default conditions (3,4). The protein translations of these DNA files are also on the disk under the PROTEIN folder. Alltough this means a very straightforward translation in case of M.
  133. I it is not so for M.
  134. I; the latter protein is composed out of two polypeptides. For the use of DOTPLOT I have "glued" them together so you can compare them to M.
  135. I in one simple run. For more information see the files themselves; they are in UWGCG format.
  136.     UUUUU
  137. Formats.
  138. The files for DOTPLOT can be off the following formats: Staden, UWGCG, Genbank, EMBL and flat sequence files. All these formats can be used together; two files don't have to be in the same format to be run together.
  139. References.
  140. Christiaan Karreman,
  141. Dept. of Pediatrics gebouw 12,
  142. Academical Hospital Leiden,
  143. P. O. box 9600,
  144. 2300 RC Leiden,
  145. The Netherlands.
  146. Phone : 031-70276118
  147. EMail : KARREMAN@RULLF2.LeidenUniv.nl
  148. fBODY TEXT
  149. fCENTER
  150. fLEGEND
  151. fRIGHT
  152. fSPRING
  153. fSPRINGALL
  154.